نشریه‌ی علمی مهندسی پزشکی زیستی

انتخاب ویژگی مبتنی بر تئوری اطلاعات برای انتخاب ژن‌های موثر در تشخیص نوع سرطان با استفاده از داده‌های ریزآرایه

سیدابوالفضل طباطبایی؛ ولی درهمی؛ راضیه شیخ‌پور؛ محمدرضا پژوهان

دوره 13، شماره 4 ، دی 1398، ، صفحه 337-348

چکیده

انتخاب ویژگی یکی از فرایندهای پیش‌پردازش داده‌ها در مباحث مربوط به یادگیری ماشین و داده‌کاوی به شمار می‌رود که در برخی زمینه‌ها مانند کار با داده‌های ریزآرایه در بیوانفورماتیک که با مشکل ابعاد بالای داده‌ها در مقابل تعداد کم نمونه‌ها مواجه است، از اهمیت ویژه‌ای برخوردار می‌باشد. انتخاب ویژگی‌های (ژن‌های) موثر در تشخیص بیماری ... بیشتر انتخاب ویژگی یکی از فرایندهای پیش‌پردازش داده‌ها در مباحث مربوط به یادگیری ماشین و داده‌کاوی به شمار می‌رود که در برخی زمینه‌ها مانند کار با داده‌های ریزآرایه در بیوانفورماتیک که با مشکل ابعاد بالای داده‌ها در مقابل تعداد کم نمونه‌ها مواجه است، از اهمیت ویژه‌ای برخوردار می‌باشد. انتخاب ویژگی‌های (ژن‌های) موثر در تشخیص بیماری از داده‌های ریزآرایه نقش مهمی در تشخیص زودهنگام بیماری و راه‌های مواجهه با آن ایفا می‌کند. در روش‌های انتخاب ویژگی مبتنی بر تئوری اطلاعات که طیف گسترده‌ای از روش‌های انتخاب ویژگی را شامل می‌شوند، از مفهوم بی‌نظمی برای تعریف معیارهای مرتبط بودن، افزونگی و مکمل بودن ویژگی‌ها استفاده می‌شود. در این مقاله به جای بی‌نظمی از مفهوم پیوستگی خالص برای پیشنهاد یک معیار جدید مرتبط بودن استفاده شده است. در این معیار پیشنهادی، برای کنترل و کاهش افزونگی، ارتباط یک ویژگی با تک‌تک کلاس‌ها به طور جداگانه بررسی شده است در حالی که در اکثر روش‌های فیلتر، ارزش یک ویژگی بر اساس ارتباط آن با کل کلاس‌ها سنجیده می‌شود. این راه‌کار باعث شده که ویژگی‌های موثر در هر کلاس به تفکیک شناسایی شوند، در حالی که امکان شناسایی ویژگی‌های مشترک نیز وجود دارد. یکی دیگر از مشکل‌های موجود در برخی از روش‌ها، مساله‌ی گسسته‌سازی داده‌ها است. در روش پیشنهادی این مقاله، با استفاده از یک تبدیل مبتنی بر یک‌ریختی، ضمن استفاده از مزایای گسسته‌سازی، از درگیر شدن با پیچیدگی‌های آن نیز اجتناب شده است. برای مقایسه‌ی روش پیشنهادی با تعدادی از روش‌های مرتبط، از هفت مجموعه‌ی داده‌ی ریزآرایه مربوط به انواع سرطان به همراه سه دسته‌بند پرکاربرد بیزین ساده، k-نزدیک‌ترین همسایه و ماشین بردار پشتیبان استفاده شده است. نتایج تجربی نشان دهنده‌ی کارایی روش ارائه شده بر اساس دو پارامتر دقت دسته‌بندی و تعداد ژن‌های انتخابی می‌باشد.

نشریه‌ی علمی مهندسی پزشکی زیستی

مقالات آماده انتشار

شماره جاری

دوره 17 (1402)

دوره 16 (1401)

دوره 15 (1400)

دوره 14 (1399)

دوره 13 (1398)

دوره 12 (1397)

دوره 11 (1396)

دوره 10 (1395)

دوره 9 (1394)

دوره 8 (1393)

دوره 7 (1392)

دوره 6 (1391)

دوره 5 (1390)

دوره 4 (1389)

دوره 3 (1388)

دوره 2 (1387)

دوره 1 (1386)

دوره -2 (1384)

دوره -1 (1383)

نویسنده = درهمی، ولی

انتخاب ویژگی مبتنی بر تئوری اطلاعات برای انتخاب ژن‌های موثر در تشخیص نوع سرطان با استفاده از داده‌های ریزآرایه

چکیده